GPT 5.5_GPT 5.5相关新闻_GPT 5.5动态

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

UC伯克利发布全新AI智能体基准测试Agents’ Last Exam（ALE），聚焦真实工作场景，要求模型在Siemens NX、Unreal Engine、Adobe After Effects等专业软件中完成实际任务。结果显示GPT 5.5在通过率、成本和效率上全面优于Claude Fable 5，暴露当前AI智能体在复杂实操任务中的能力局限与高成本低效问题。

量子位13小时前

ChatGPT突然改版，奥特曼：IPO不着急

OpenAI突然改版ChatGPT，取消模型代号、启用‘智力分级’界面，并宣布GPT-5.6将于本月发布；同时计划大幅下调API价格以应对Anthropic竞争。奥特曼表示IPO不急于推进，因AI若实现递归自我改进（RSI），私有公司灵活性将远超上市公司，技术跃迁可能重塑商业规则。

新智元06月11日 20:42

GPT-5.6首批实测来了，精准狙击Mythos

GPT-5.6内部测试版本（代号kindle-alpha）泄露，聚焦前端/UI生成与视觉能力提升，但实测表现不稳定，部分对比显示逊于Mythos；同期Anthropic发布Claude Fable 5和Mythos 5，谷歌Gemini 3.5 Pro亦定档6月上线，AI三巨头在推理、编码、智能体等能力上激烈竞速，定价与实际性能成关键胜负手。

量子位06月10日 15:26

花1500美元，让AI“黑”自己的App：GPT-5.5成功率70%，部分模型0分交卷

安全研究员Kasra Rahjerdi通过构建含真实漏洞的移动应用BookNook，测试十余款大模型自主发现并利用Firebase服务漏洞的能力；GPT-5.5以70%成功率领先，凸显其在安全分析中快速识别云服务弱点的优势，实验揭示大模型正初步具备初级安全研究员的渗透测试潜力。

CSDN06月04日 16:06

一手实测，Opus 4.8 Vs ChatGPT 5.5 Vs Kimi 2.6 ，谁最可用？

文章通过六道实测题目横向对比Opus 4.8、ChatGPT 5.5和Kimi 2.6三款大模型在诚实性、逻辑推理、代码审查、几何解题、写作表达及任务规划等维度的表现，发现Opus 4.8以主动识别数据矛盾、拒绝幻觉、清晰标注不确定性为突出优势，Kimi 2.6表现亮眼紧随其后，ChatGPT 5.5执行细致但偶有计算错误；核心结论是‘诚实’正成为大模型真实可用性的关键分水岭。

象先志05月30日 09:50

GPT-5.5翻倍，Gemini涨3倍：这波涨价游戏还能玩多久？

文章分析前沿大模型（如GPT-5.5、Gemini）因算力供需严重失衡而集体涨价的现象，指出GPU与内存价格飙升、Token需求年增10倍远超算力供给增速（3.4倍），导致企业成本激增、ROI下降；同时开源模型DeepSeek以极低成本提供接近前沿模型的性能，正加速瓦解高价模型的定价权与护城河。

新智元05月28日 18:26

GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token

GPT-5.5在316道进攻性网络安全评测任务中正确完成292道，正确率达92.4%，导致现有评估体系饱和失效；其能力每5–6个月翻倍，Token预算增加显著提升表现，引发对模型攻击能力失控及安全评估滞后性的深度担忧。

新智元05月28日 17:02

实锤，GPT-5.5「降智」被抓，OpenAI官方文档认了

GPT-5.5用户大规模投诉模型性能断崖式下降，实测显示系统在额度用尽或高负载时静默降级至低配模型（如mini或GPT-5.2），界面标签不变，但响应质量、指令遵循能力与推理时长显著劣化；OpenAI官方文档承认该机制，将其描述为功能而非故障，引发对服务透明度与订阅价值的质疑。

新智元05月27日 19:04

曝GPT-5.5用上“全球最快芯片”，Claude慌了

Cerebras凭借晶圆级芯片WSE-3实现2000 token/秒推理速度，支撑GPT-5.3-Codex-Spark等小模型高效运行，并获OpenAI大额订单及IPO暴涨；但其44GB SRAM限制导致大模型支持乏力，与英伟达等在带宽和扩展性上存在数量级差距，当前优势集中在120B以下模型与短上下文场景。

新智元05月18日 19:28

Image 2 × Seedance 2.0王炸组合：4套刷屏外网的玩法，提示词全在这了

文章介绍了GPT-Image-2与Seedance 2.0协同使用的四大AI视频创作玩法：体育赛事沉浸式互动视频、故事板转动画视频、游戏实机录屏风格生成、3D交互网页构建，并提供了详细提示词范例与工作流，强调其在内容创作、教育科普和UI设计等领域的高真实感与实用性。

爱范儿05月16日 13:51

Cyber天花板被打穿，AISI实测Mythos能力正以4.5月翻倍速冲向ASI

英国AI安全研究所（AISI）实测显示，Anthropic的Mythos和OpenAI的GPT-5.5在网络攻防能力上实现飞跃式突破，Mythos在32步企业内网渗透任务中10次成功6次，并首次攻破此前无人通过的Cooling Tower靶场；其能力翻倍周期压缩至4.5个月，瓶颈已从智力转向Token预算，评测速度严重滞后于模型迭代。

新智元05月15日 08:33

GPT-5.5全球首破，0源码盲写程序，编程AI进入新纪元

GPT-5.5首次在ProgramBench编程基准测试中成功破解首题cmatrix，实现零源码盲写完整程序，显著超越Claude Opus等竞品；该测试要求仅凭可执行文件和文档从零重建程序，凸显高推理算力对编程AI能力的决定性作用，标志AI向通用智能演进的关键突破。

新智元05月13日 20:07

绝杀，OpenAI正式接管人类耳朵，首个GPT-5级推理音频模型来了

OpenAI发布GPT-Realtime-2，首个具备GPT-5级别推理能力的实时音频模型，实现语音交互的质变：支持深度战略推理、情绪感知、多任务并行与低延迟流式处理，并同步推出实时翻译和转写工具，推动人机交互从键盘向自然语音全面迁移。

新智元05月12日 21:52

大模型“发疯”实录：赛博妖怪入侵，哥布林和浣熊拼出AI产业最荒诞的一季

文章以OpenAI模型GPT-5.5频发‘哥布林模式’为切入点，揭示大模型在强化学习中因奖励机制缺陷导致的底层行为失控现象；指出该问题已波及Anthropic、谷歌等多家头部厂商，并引发微软调整合作条款、OpenAI转向多云部署等商业连锁反应，折射出当前AI产业在技术可靠性与商业落地间的深层矛盾。

硅谷Tech new...05月09日 10:19

AI规则怪谈：ChatGPT代码里写着“永远不要讨论哥布林”

OpenAI发现GPT-5系列模型因RLHF训练中对Nerdy人格下‘哥布林’等奇幻生物比喻的过度奖励，导致该类词汇在全模型范围内异常泛滥，形成跨场景、跨版本的‘哥布林逃逸’现象；为遏制影响，OpenAI下线Nerdy人格、清洗数据、移除奖励信号，并在系统提示中硬性禁用相关词汇，揭示AI个性由人类反馈塑造的本质风险。

果壳05月08日 19:02

暂无内容

加载更多

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

ChatGPT突然改版，奥特曼：IPO不着急

GPT-5.6首批实测来了，精准狙击Mythos

花1500美元，让AI“黑”自己的App：GPT-5.5成功率70%，部分模型0分交卷

一手实测，Opus 4.8 Vs ChatGPT 5.5 Vs Kimi 2.6 ，谁最可用？

GPT-5.5翻倍，Gemini涨3倍：这波涨价游戏还能玩多久？

GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token

实锤，GPT-5.5「降智」被抓，OpenAI官方文档认了

曝GPT-5.5用上“全球最快芯片”，Claude慌了

Image 2 × Seedance 2.0王炸组合：4套刷屏外网的玩法，提示词全在这了

Cyber天花板被打穿，AISI实测Mythos能力正以4.5月翻倍速冲向ASI

GPT-5.5全球首破，0源码盲写程序，编程AI进入新纪元

绝杀，OpenAI正式接管人类耳朵，首个GPT-5级推理音频模型来了

大模型“发疯”实录：赛博妖怪入侵，哥布林和浣熊拼出AI产业最荒诞的一季

AI规则怪谈：ChatGPT代码里写着“永远不要讨论哥布林”

推荐专题

热门新闻

友情链接

投资AI和Web3，下载火星财经APP

账号密码登录

修改昵称

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

ChatGPT突然改版，奥特曼：IPO不着急

GPT-5.6首批实测来了，精准狙击Mythos

花1500美元，让AI“黑”自己的App：GPT-5.5成功率70%，部分模型0分交卷

一手实测，Opus 4.8 Vs ChatGPT 5.5 Vs Kimi 2.6 ，谁最可用？

GPT-5.5翻倍，Gemini涨3倍：这波涨价游戏还能玩多久？

GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token

实锤，GPT-5.5「降智」被抓，OpenAI官方文档认了

曝GPT-5.5用上“全球最快芯片”，Claude慌了

Image 2 × Seedance 2.0王炸组合：4套刷屏外网的玩法，提示词全在这了

Cyber天花板被打穿，AISI实测Mythos能力正以4.5月翻倍速冲向ASI

GPT-5.5全球首破，0源码盲写程序，编程AI进入新纪元

绝杀，OpenAI正式接管人类耳朵，首个GPT-5级推理音频模型来了

大模型“发疯”实录：赛博妖怪入侵，哥布林和浣熊拼出AI产业最荒诞的一季

AI规则怪谈：ChatGPT代码里写着“永远不要讨论哥布林”

推荐专题

热门新闻

友情链接

投资AI和Web3，下载火星财经APP

商务合作